【星际随笔之54】写在乌镇决战的前夜

兴业计算机团队 2022-07-03

作者：袁煜明/蒋佳霖/徐聪/雷雳/陈冠呈/洪依真

武侠剧里，最后的大结局一般都是这样的：在一个山清水秀的僻静胜地，主角最终向反派BOSS发起了挑战，虽然力量悬殊，但主角奇迹般地逆转打败了反派BOSS。

印象最深的是小时候看的《天龙八部》电视剧。是82版不是97版哦，在那儿黄日华演的还是段誉而不是乔峰。

那版电视剧和书的剧情不太一样，大结局是段誉、虚竹、萧远山联手，第二天决战慕容博。力量悬殊，单个人谁也打不过慕容博。他们当时钻研出来唯一的胜机是，牺牲一个人，练就某种阵型才能打败慕容博，抽签抽到的牺牲者是虚竹。

决战前一夜，虚竹与梦姑热泪告别，尽是萧萧易水、悲壮赴死。最后在第二天，萧远山抢先牺牲了自己，终于击败了慕容博。

这一次，这个山清水秀的僻静胜地叫乌镇。

这个像慕容复一样的终极反派BOSS，是已经被封神的，谷歌的AlphaGo。

这篇随笔内容包括：

1. 柯洁是否可能赢一盘？

2. 阿尔狗是否会用自我对弈版本？

3. 团体赛5人联手是否会实力更强？

4. 配对赛的意义是最大的？

1. 柯洁是否可能赢一盘？

一年多以前，李世石输给AlphaGo时，尚且有人怀疑是李世石放水下假棋；5个月以前，Master大师（AlphaGo的升级版）在网上横扫人类所有顶尖高手，达到惊人的60胜，水平又上一层楼；机器每天都在进步，而挑战AlphaGo的柯洁，水平相比李世石也就是微弱的优势，之前对战Master的快棋也是输得毫无机会。

所以，几乎已经没人看好柯洁了。不仅是没有看好柯洁在三局两胜里能取得胜利，而且几乎没人看好柯洁能赢一盘。所以，相比之前李世石比赛的五番棋，这次改成了三番棋，以免连续被吊打太过难堪。

也有人在和柯洁支招，用模仿棋对付AlphaGo，认为这是机器的软肋。

有人找出了柯洁的两条微博来证明：一条上说“终于用非常手段终结14连败了”，从棋谱看就是通过模仿棋打败了腾讯的AI绝艺。

另一条微博里说：“感谢Alphago最新版给我们棋界带来的震撼……若不是住院，我将用上那准备了一个星期的最后一招”。有人猜测那一招就是模仿棋。

但我需要说明几点：

1）在Master横扫的60盘里，世界冠军周俊勋采用了模仿棋对付Master，模仿到70多步，最后还是脆败。

2）既然已经有人在网上说了，谷歌也一定能看到，就算今晚才看到，让狗熬夜练上几千盘模仿棋的左右互搏，肯定深谙此道，上不了柯洁的当。就看柯洁有没有模仿棋以外的杀手锏了。

3）5月16日柯洁接受采访的时候已经说了，的确当时发微博时想的是模仿棋，但现在想想谷歌肯定也测试过，恐怕也没什么用，真正下的时候也不一定会用。当然，你不排除，一切都是障眼法，柯洁也怕传到谷歌耳朵里，所以真正在想的，不会说出来。

柯洁要想赢一盘，除了勇气、运气，还有很重要的一个可能，见下一部分。

2. 阿尔狗是否会用自我对弈版本？

近期还有个传言，就是这次的AlphaGo将采用全新版本，没有学习过人类棋谱，纯粹自我对弈的版本。

这个会有什么差别呢？我们从表观和技术上来分析。

表观上，如果是没有学习过人类棋谱，就像野孩子第一次进城不懂规矩，着法可能完全闻所未闻，比如第一手不下在角上，下到中腹去之类的。到底人类研究了几千年围棋，着法是和人工智能大量自研的结果相似呢，还是完全不同呢？（就好像在猜想外星人是否像我们一样进化成两条腿走路）

技术上，深度学习包括监督学习(supervised leaning)、非监督学习(unsupervised learning)。在围棋上说，监督学习就是给AI看人类棋谱，告诉他怎么样下好，非监督学习就是让他自己练，自己琢磨怎么样能赢。从谷歌当时发表的论文来看，是两种方式都采用了的。

但现在谷歌如果真的敢用没学过人类棋谱的，无疑是他们发现这种方式的水平已经足够高了，这个在技术上的意义是很大的。

因为现实世界的应用里，大量场景是无法做标签定义，无法做监督学习的，如果人工智能可以自学成才，那应用领域会大幅拓宽。

当然，由于AlphaGo团队要求相关技术细节赛前必须保密，目前还无法确认究竟会是什么版本的狗出现。

3. 团体赛5人联手是否会实力更强？

当然，比柯洁的三番棋意义更大的，是5人联手对付AlphaGo。

这个有点像段誉、虚竹、萧远山联手对付慕容博。单个人下不过，就一块上。单个人总会有误算，有昏招，有恐慌或错觉；5人联手，可以基本上避免任何低级错误，每一手都力求找到最完美的一手。

5个人是个很合适的数字，两三个人还可能有盲点，人太多可能人多嘴杂。这5个人，陈耀烨、时越、周睿羊、唐韦星、芈昱廷，都是当前世界棋坛最顶尖的棋手，都夺得过世界冠军，联合起来水平肯定要比柯洁、李世石都要高很多。

当然，也有人担心，5人联手会不会相互推诿，谁也不出力，谁也不承担责任，平庸，等死。

这个取决于5个人能否采用合理的民主集中制，有人出谋划策，有人最终拍板。当然，这个问题我们能想到，这5个人也想得到。

上周时，5名成员之一，时越接受采访时表示，他们5个人已经在一起训练过。想必如何配合也该达成了共识。当然时越也表示，想要赢棋很渺茫。

现代围棋由于基本都是单个人下（也有联棋比赛，那是一人下一步，不能商量），没有案例可以参照。可以举的一个例子，是当年如日中天的吴清源挑战不败的本因坊秀哉，本来那局吴清源已经取得优势，胜利在望，于是秀哉封盘，然后召集众弟子商讨，最后门下弟子前田陈尔想出了绝妙的白160，反败为胜。所以，高手联手应该还是能提高水平的。

不过这次的赛制有个很不合理的地方：柯洁和AlphaGo的比赛尚且有每方3小时，但5人联棋是每方2小时（之前李世石和AlphaGo也是每方2小时）。单个人下2小时尚嫌紧张，5个人商量，还只有2小时，根本就没有商量探讨的时间啊。

4. 配对赛的意义是最大的？

比5人联手意义更大的，是古力、连笑分别与AlphaGo配合下联棋。

说到底，人工智能还是机器，不是人类。人类不需要畏惧人工智能的发展，而是应该将其应用来提高自己。（那些人工智能进化出人类的思想情感的还只存在于科幻片中）

在AlphaGo横空出世后，那些棋谱都已经成为了棋手们争相研究的宝库。很多以前从未被考虑过的着法，现在开始进入棋手的视野，重新审视之前已认为是确定无误的棋理。在高手对弈时，经常可以看到采用狗流来下。相信在狗肆虐之后，人类棋手水平也会有一个层次的跃升。

正如柯洁有次采访时所说，“包括我，之前都把自己锁定在条条框框中，比如围甲二十多盘棋，几乎一半都是相同的开局套路。当时大家不知道其他招法好不好，先下出新手的人有可能吃亏，所以为了保持胜率，大家都用熟练的开局下法，来拼后半盘内功。现在AlphaGo把我们的思想打开了，是很大好处，大家都有自己的思想和作战方针，能聊的东西多了，棋比以前好看了。”

而这次的比赛，希望能看到古力和连笑能下出比之前更为精彩的棋局；而我们也可以看到，狗狗相争，到底会是矛更利，还是盾更坚。

最后，抛开所有的理性，还是衷心地祝愿，能像武侠片里那样出现奇迹，主角最终打败了反派BOSS，或者至少，赢下一盘。

附此前阿尔狗相关随笔，与此次比赛赛程：

往期精华链接

【星际随笔之九】曲率已驱动了头发——深度分析谷歌AlphaGo击败职业棋手

【星际随笔之12】快评谷歌围棋与李世石大战的规则披露

【星际随笔之16】一个低级失误提前了载入史册的日子——写在谷歌围棋首局战胜李世石之后

【星际随笔之17】信心被完全摧毁我很同情，以及尊敬李世石——写在李世石输掉和AlphaGo的第二局后

【星际随笔之18】假如围棋界有黄健翔——写在李世石首次战胜AlphaGo后

【星际随笔43】再度回归的Master会带来什么新思考